MaisConhecer - IA enfrenta seu maior teste na biotecnologia: prever o futuro da evolução de proteínas

IA enfrenta seu maior teste na biotecnologia: prever o futuro da evolução de proteínas

Estudo internacional cria banco de mais de 1 milhão de variantes genéticas e revela limite surpreendente dos modelos de inteligência artificial usados para engenharia de proteínas

Crédito: Freepik

A inteligência artificial vem transformando áreas que vão da medicina à descoberta de novos materiais. Mas quando o desafio é prever quais proteínas serão bem-sucedidas em futuras rodadas de evolução biológica, os sistemas mais avançados ainda estão longe do desempenho esperado. Essa é a principal conclusão de um estudo apresentado na Conferência Internacional de Machine Learning (ICML 2026), que descreve o TadA-Bench, o maior benchmark já construído para avaliar a capacidade de algoritmos em antecipar descobertas futuras na engenharia de proteínas.

Liderada por pesquisadores da Shanghai Jiao Tong University e do Shanghai Innovation Institute, a pesquisa foi conduzida por Jin Gao, Juntu Zhao, Zirui Zeng, Jiaqi Shen, Junhao Shi, Dukun Zhao, Yuming Lu e Dequan Wang. O trabalho apresenta um banco de dados derivado de 31 rodadas reais de evolução dirigida da proteína TadA, utilizada em tecnologias de edição genética de bases, uma das fronteiras mais promissoras da biotecnologia moderna.

A proposta do estudo é simples na teoria, mas extremamente desafiadora na prática: treinar modelos de IA usando informações de rodadas anteriores de experimentos e verificar se eles conseguem identificar quais variantes de proteínas surgirão e terão sucesso nas etapas futuras. Segundo os autores, esse tipo de tarefa representa um cenário mais próximo do que laboratórios enfrentarão ao usar agentes autônomos de IA para orientar experimentos biológicos.

“O objetivo não é apenas ajustar modelos a dados históricos, mas avaliar se eles conseguem priorizar corretamente as variantes que aparecerão em experimentos futuros”, explicam Yuming Lu e Dequan Wang no artigo.

Para construir o TadA-Bench, os pesquisadores reuniram mais de 1,02 milhão de sequências de DNA associadas à proteína TadA. Após o processamento dos dados, o conjunto resultou em 409.869 sequências proteicas distintas, formando um dos maiores recursos já produzidos para engenharia de proteínas baseada em aprendizado de máquina.

A proteína TadA desempenha papel central nos chamados editores de adenina, ferramentas capazes de converter pares de bases A•T em G•C sem provocar quebras de dupla fita no DNA. Desde sua introdução, essa tecnologia tem sido considerada uma das mais promissoras para o tratamento de doenças genéticas hereditárias.

O estudo utilizou um método experimental conhecido como PANCE (Phage-Assisted Non-Continuous Evolution), no qual variantes mais eficientes da proteína se replicam com maior sucesso em populações de bacteriófagos. Ao longo de 31 ciclos independentes, os pesquisadores acompanharam a evolução de milhares de variantes, registrando suas trajetórias e níveis relativos de atividade biológica.

Um dos avanços metodológicos mais importantes foi o desenvolvimento do Seq2Graph, sistema computacional criado para integrar dados experimentais obtidos em diferentes rodadas. Em vez de depender de medições absolutas, frequentemente sujeitas a ruídos e efeitos de lote, o método constrói uma rede de comparações relativas entre variantes, permitindo gerar uma escala consistente de atividade biológica.

A robustez do sistema foi validada experimentalmente. Em testes independentes utilizando um ensaio fluorescente baseado em GFP, a classificação das variantes mostrou correlação superior a 0,99 com os resultados derivados do sequenciamento de alta escala. Além disso, análises de reamostragem confirmaram a estabilidade dos rótulos gerados pelo Seq2Graph mesmo quando metade dos dados experimentais era removida.

Mas o resultado que mais chamou atenção dos pesquisadores foi o desempenho decepcionante dos modelos de inteligência artificial atualmente considerados estado da arte.

Sistemas amplamente utilizados na biologia computacional, incluindo as famílias Evo2, Nucleotide Transformer, OmniGenome, ESM2, ProtTrans e ESM Cambrian, demonstraram bom desempenho quando avaliados em conjuntos aleatórios de dados. Em alguns casos, as correlações alcançaram valores próximos de 0,80, sugerindo excelente capacidade de aprendizagem.

No entanto, quando confrontados com a tarefa mais realista de prever variantes que só apareceriam em rodadas futuras dos experimentos, o desempenho despencou. As correlações de classificação ficaram em torno de 0,05 a 0,10, revelando uma incapacidade generalizada de extrapolar conhecimento para regiões ainda não exploradas do espaço evolutivo.

“O sucesso em divisões aleatórias dos dados não garante capacidade de descoberta futura”, afirmam os autores. “Os modelos conseguem interpolar exemplos semelhantes aos já observados, mas falham quando precisam antecipar variantes que surgem posteriormente no processo evolutivo.”

A descoberta possui implicações importantes para o desenvolvimento de agentes científicos autônomos. Nos últimos anos, cresceu o interesse em sistemas capazes de propor experimentos, interpretar resultados e sugerir novos candidatos para testes laboratoriais. Porém, segundo os resultados do TadA-Bench, os modelos atuais ainda não dominam uma das habilidades fundamentais necessárias para esse cenário: prever corretamente quais variantes merecem ser testadas no futuro.

Os pesquisadores também identificaram um aspecto particularmente relevante para a construção de futuros bancos de dados biológicos. Em análises controladas, conjuntos que cobriam regiões evolutivas mais diversas apresentaram desempenho superior aos que simplesmente continham mais exemplos semelhantes entre si. Em outras palavras, diversidade informacional mostrou-se mais valiosa do que densidade de dados.

Esse resultado sugere que a próxima geração de benchmarks para biologia computacional deverá priorizar a preservação da história evolutiva dos experimentos, em vez de apenas ampliar o volume bruto de informações disponíveis.

Para especialistas em edição genética, o trabalho representa um marco metodológico. Ao disponibilizar dados, protocolos de avaliação e código-fonte de forma aberta, o TadA-Bench oferece uma plataforma padronizada para medir o progresso da inteligência artificial em uma das áreas mais estratégicas da ciência contemporânea.

Mais do que um banco de dados, o estudo funciona como um alerta. Embora a inteligência artificial já demonstre capacidade extraordinária para reconhecer padrões em proteínas, a verdadeira fronteira científica não está em explicar o passado, mas em prever o futuro. E, ao menos por enquanto, essa continua sendo uma tarefa surpreendentemente difícil.

Referência

TadA-Bench: Um benchmark com um milhão de variantes para futuras descobertas em direção à engenharia de proteínas gênicas. Jin Gao , Juntu Zhao , Zirui Zeng , Jiaqi Shen , Junhao Shi , Dukun Zhao , Yuming Lu , Dequan Wang.

https://doi.org/10.48550/arXiv.2606.02624

Tecnologia Científica

“O sucesso em divisões aleatórias dos dados não garante capacidade de descoberta futura”, afirmam os autores. “Os modelos conseguem interpolar exemplos semelhantes aos já observados, mas falham quando precisam antecipar variantes que surgem posteriormente no processo evolutivo.”